Apache PDFBox 是一个开源 Java 库,支持 PDF 文档的开发和转换

您所在的位置:网站首页 java pdf下载 Apache PDFBox 是一个开源 Java 库,支持 PDF 文档的开发和转换

Apache PDFBox 是一个开源 Java 库,支持 PDF 文档的开发和转换

2024-07-11 23:21| 来源: 网络整理| 查看: 265

PDFBox - 概述

可移植文档格式 (PDF) 是一种文件格式,有助于以独立于应用程序软件、硬件和操作系统的方式呈现数据。

每个 PDF 文件都包含对固定布局平面文档的描述,包括文本、字体、图形和显示它所需的其他信息。

有几个库可用于通过程序创建和操作 PDF 文档,例如 -

Adobe PDF Library - 该库以 C++、.NET 和 Java 等语言提供 API,使用它我们可以编辑、查看打印和从 PDF 文档中提取文本。

Formatting Objects Processor - 由 XSL Formatting Objects 驱动的开源打印格式化程序和一个独立于输出的格式化程序。主要输出目标是 PDF。

iText - 该库以 Java、C# 和其他 .NET 语言等语言提供 API,使用该库我们可以创建和操作 PDF、RTF 和 HTML 文档。

JasperReports - 这是一个 Java 报告工具,可在 PDF 文档中生成报告,包括 Microsoft Excel、RTF、ODT、逗号分隔值和 XML 文件。

什么是 PDFBox

Apache PDFBox 是一个开源 Java 库,支持 PDF 文档的开发和转换。使用这个库,您可以开发创建、转换和操作 PDF 文档的 Java 程序。

除此之外,PDFBox 还包括一个命令行实用程序,用于使用可用的 Jar 文件对 PDF 执行各种操作。

PDFBox 的特点

以下是 PDFBox 的显着特点 -

提取文本- 使用 PDFBox,您可以从 PDF 文件中提取 Unicode 文本。

Split & Merge - 使用 PDFBox,您可以将单个 PDF 文件分成多个文件,并将它们合并为单个文件。

Fill Forms - 使用 PDFBox,您可以在文档中填写表单数据。

Print - 使用 PDFBox,您可以使用标准 Java 打印 API 打印 PDF 文件。

Save as Image - 使用 PDFBox,您可以将 PDF 保存为图像文件,例如 PNG 或 JPEG。

创建 PDF - 使用 PDFBox,您可以通过创建 Java 程序来创建新的 PDF 文件,还可以包含图像和字体。

签名- 使用 PDFBox,您可以向 PDF 文件添加数字签名。

PDFBox 的应用

以下是 PDFBox 的应用 -

Apache Nutch - Apache Nutch 是一个开源网络搜索软件。它建立在 Apache Lucene 之上,添加了 Web 特性,例如爬虫、链接图数据库、HTML 解析器和其他文档格式等。

Apache Tika - Apache Tika 是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。

PDFBox 组件

以下是 PDFBox 的四个主要组件 -

PDFBox - 这是 PDFBox 的主要部分。这包含与内容提取和操作相关的类和接口。

FontBox - 这包含与字体相关的类和接口,使用这些类我们可以修改 PDF 文档文本的字体。

XmpBox - 这包含处理 XMP 元数据的类和接口。

Preflight - 此组件用于根据 PDF/A-1b 标准验证 PDF 文件。

PDFBox - 环境 安装 PDFBox

以下是下载 Apache PDFBox 的步骤 -

第 1 步-通过单击以下链接打开Apache PDFBox的主页- Apache PDFBox | A Java PDF Library

第 2 步- 上面的链接将引导您到主页,如以下屏幕截图所示 -

第 3 步- 现在,单击上面屏幕截图中突出显示的下载链接。单击后,您将被定向到 PDFBox 的下载页面,如下图所示。

第 4 步- 在“下载”页面中,您将获得 PDFBox 的链接。单击相应链接以获取最新版本。例如,我们选择PDFBox 2.0.1,点击它,您将被定向到所需的 jar 文件,如以下屏幕截图所示。

第 5 步- 下载 jar 文件 pdfbox-2.0.1.jar、fontbox-2.0.1.jar、preflight-2.0.1.jar、xmpbox-2.0.1.jar 和 pdfbox-tools-2.0.1.jar。

Eclipse 安装

下载所需的 jar 文件后,您必须将这些 JAR 文件嵌入到您的 Eclipse 环境中。您可以通过设置这些 JAR 文件的构建路径并使用pom.xml来做到这一点。

设置构建路径

以下是在 Eclipse 中安装 PDFBox 的步骤 -

第 1 步- 确保您已在系统中安装 Eclipse。如果没有,请在您的系统中下载并安装 Eclipse。

第 2 步- 打开 Eclipse,单击文件、新建,然后打开一个新项目,如以下屏幕截图所示。

第 3 步- 选择项目后,您将获得新建项目向导。在此向导中,选择 Java 项目并单击Next按钮继续,如以下屏幕截图所示。

Step 4 - 继续前进,您将被引导至New Java Project 向导。创建一个新项目并单击下一步,如以下屏幕截图所示。

Step 5 - 创建一个新项目后,右键单击它;选择Build Path并单击Configure Build Path...,如下面的屏幕截图所示。

Step 6 - 单击Build Path选项,您将被定向到Java Build Path 向导。选择Add External JARs,如以下屏幕截图所示。

步骤 7 - 选择 jar 文件fontbox-2.0.1.jar、pdfbox-2.0.1.jar、pdfbox-tools-2.0.1.jar、preflight-2.0.1.jar、xmpbox-2.0.1.jar,如图所示在下面的屏幕截图中。

第 8 步- 单击上面屏幕截图中的“打开”按钮,这些文件将被添加到您的库中,如以下屏幕截图所示。

Step 9 - 单击OK,您将成功地将所需的 JAR 文件添加到当前项目中,您可以通过展开 Referenced Libraries 来验证这些添加的库,如下面的屏幕截图所示。

使用 pom.xml

将项目转换为maven项目,在其pom.xml中添加如下内容。

4.0.0 com.example.pdfboxcropbox PDFBoxCropBox 1.0-SNAPSHOT UTF-8 1.8 1.8 com.example.pdfboxcropbox.PDFBoxCropBox org.apache.pdfbox pdfbox 2.0.25 org.apache.pdfbox fontbox 2.0.25 org.apache.pdfbox jempbox 1.8.16 org.apache.pdfbox xmpbox 2.0.25 org.apache.pdfbox preflight 2.0.25 org.apache.pdfbox pdfbox-tools 2.0.25 PDFBox - 创建 PDF 文档

现在让我们了解如何使用 PDFBox 库创建 PDF 文档。

创建一个空的 PDF 文档

您可以通过实例化PDDocument类来创建一个空的 PDF 文档。您可以使用Save()方法将文档保存在所需的位置。

以下是创建空 PDF 文档的步骤。

第 1 步:创建一个空文档

属于包org.apache.pdfbox.pdmodel的PDDocument类是 PDFDocument 的内存表示。因此,通过实例化此类,您可以创建一个空的 PDFDocument,如以下代码块所示。

PDDocument document = new PDDocument(); 第 2 步:保存文档

创建文档后,您需要将此文档保存在所需的路径中,您可以使用PDDocument类的Save()方法来完成。此方法接受一个字符串值,表示您要存储文档的路径,作为参数。以下是PDDocument类的 save() 方法的原型。

document.save("Path"); 第 3 步:关闭文档

当您的任务完成后,最后,您需要使用close()方法关闭PDDocument对象。以下是PDDocument类的 close() 方法的原型。

document.close(); 例子

此示例演示 PDF 文档的创建。在这里,我们将创建一个 Java 程序来生成一个名为my_doc.pdf的 PDF 文档并将其保存在路径C:/PdfBox_Examples/中。将此代码保存在名为Document_Creation.java 的文件中。

import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; public class Document_Creation { public static void main (String args[]) throws IOException { //Creating PDF document object PDDocument document = new PDDocument(); //Saving the document document.save("C:/PdfBox_Examples/my_doc.pdf"); System.out.println("PDF created"); //Closing the document document.close(); } }

使用以下命令从命令提示符编译并执行保存的 Java 文件。

javac Document_Creation.java java Document_Creation

执行后,上述程序会创建一个显示以下消息的 PDF 文档。

PDF created

如果您验证指定的路径,您可以找到创建的 PDF 文档,如下所示。

由于这是一个空文档,如果您尝试打开此文档,则会提示您显示错误消息,如以下屏幕截图所示。

PDFBox - 添加页面

在上一章中,我们已经了解了如何创建 PDF 文档。创建 PDF 文档后,您需要为其添加页面。现在让我们了解如何在 PDF 文档中添加页面。

将页面添加到 PDF 文档

您可以通过实例化PDPage类来创建一个空页面,并使用PDDocument类的addPage()方法将其添加到 PDF 文档中。

以下是创建空文档并向其添加页面的步骤。

第 1 步:创建一个空文档

通过实例化PDDocument类来创建一个空的 PDF 文档,如下所示。

PDDocument document = new PDDocument(); 第 2 步:创建空白页

PDPage类表示PDF文档中的一个页面,因此,您可以通过实例化该类来创建一个空页面,如以下代码块所示。

PDPage my_page = new PDPage(); 第 3 步:将页面添加到文档

您可以使用PDDocument类的addPage()方法将页面添加到 PDF 文档。对于此方法,您需要将 PDPage 对象作为参数传递。

因此,将上一步中创建的空白页添加到 PDDocument 对象中,如以下代码块所示。

document.addPage(my_page);

通过这种方式,您可以在 PDF 文档中添加任意数量的页面。

第 4 步:保存文档

添加所有页面后,使用PDDocument类的save()方法保存 PDF 文档,如以下代码块所示。

document.save("Path"); 第 5 步:关闭文档

最后使用PDDocument类的close()方法关闭文档,如下所示。

document.close(); 例子

此示例演示如何创建 PDF 文档并向其添加页面。在这里,我们将创建一个名为my_doc.pdf的 PDF 文档,并进一步添加 10 个空白页,并将其保存在路径C:/PdfBox_Examples/中。将此代码保存在名为Adding_pages.java 的文件中。

package document; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; public class Adding_Pages { public static void main(String args[]) throws IOException { //Creating PDF document object PDDocument document = new PDDocument(); for (int i=0; i


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3